영상 설명 모델 성능 평가 안내서

1. 영상 설명 모델 평가의 중요성과 난제

1.1 영상 설명(Image Captioning)의 정의와 목표

영상 설명은 컴퓨터 비전(Computer Vision)과 자연어 처리(Natural Language Processing) 기술을 융합하여, 주어진 이미지의 시각적 콘텐츠를 인간이 사용하는 자연어 문장으로 자동 생성하는 인공지능의 핵심 분야이다.1 이 기술의 궁극적인 목표는 단순히 이미지 내에 존재하는 객체들을 나열하는 것을 넘어, 객체들의 속성, 그들 간의 상호 관계, 그리고 장면이 담고 있는 전반적인 맥락과 상황을 종합적으로 이해하고 유창한 문장으로 표현하는 데 있다.3

이러한 목표를 달성하기 위해, 현대의 영상 설명 모델들은 대부분 인코더-디코더(Encoder-Decoder) 아키텍처를 기반으로 한다. 인코더는 주로 합성곱 신경망(Convolutional Neural Network, CNN)을 사용하여 이미지로부터 고차원의 시각적 특징(feature)을 추출하는 역할을 담당한다. 디코더는 순환 신경망(Recurrent Neural Network, RNN)이나 최근 각광받는 트랜스포머(Transformer) 구조를 활용하여, 인코더가 추출한 시각적 특징을 입력받아 순차적으로 단어를 생성함으로써 최종적인 캡션을 완성한다.3

1.2 엄격한 평가의 필요성

영상 설명 기술이 발전함에 따라, 생성된 캡션의 품질을 객관적이고 신뢰할 수 있는 방식으로 평가하는 것의 중요성은 아무리 강조해도 지나치지 않다. 엄격한 평가 체계는 다음과 같은 필수적인 역할을 수행한다. 첫째, 개발된 모델의 성능을 정량적으로 측정하여 연구의 진척도를 파악하는 기준을 제공한다. 둘째, 서로 다른 모델 아키텍처나 학습 전략의 우수성을 공정하게 비교할 수 있게 하여, 학계와 산업계 전반의 기술 발전을 촉진한다.6 마지막으로, 잘 설계된 평가 지표는 모델의 학습 과정에서 직접적인 보상(reward) 신호로 활용될 수 있다. 강화학습(Reinforcement Learning)과 같은 기법을 통해 평가 점수를 최적화하도록 모델을 훈련시킴으로써, 생성되는 캡션의 질을 직접적으로 향상시키는 것이 가능하다.8

이처럼 평가와 생성 기술은 서로의 발전을 견인하는 공생 관계에 있다. 더 나은 생성 모델의 등장은 기존 평가 지표의 한계를 드러내고, 이는 다시 더 정교한 평가 지표의 개발을 촉진한다. 그리고 새롭게 개발된 지표는 차세대 생성 모델의 최적화 목표가 되어 기술의 선순환적 발전을 이끈다.

1.3 영상 설명 평가의 고유한 난제

그러나 영상 설명 모델을 평가하는 것은 다른 인공지능 분야와 구별되는 고유한 난제들을 내포하고 있다.

일대다(One-to-Many) 관계: 평가를 근본적으로 어렵게 만드는 가장 큰 요인은 하나의 이미지에 대해 문법적으로나 의미론적으로 타당한 설명이 무수히 많이 존재할 수 있다는 점이다.10 사람마다 주목하는 대상이나 표현 방식이 다르기 때문에, 여러 개의 ‘정답’ 캡션이 존재한다. 하지만 대부분의 전통적인 자동 평가 지표는 모델이 생성한 단 하나의 캡션을 사람이 작성한 소수의 참조 캡션 집합과 비교한다. 이 과정에서 참조 캡션에 사용되지 않은 동의어나 다른 유효한 표현을 사용한 경우, 내용적으로는 훌륭함에도 불구하고 낮은 점수를 받게 되는 ‘과도한 페널티(over-penalization)’ 문제가 발생한다.10
인간 판단과의 상관관계 부족: 기계 번역 분야에서 차용된 BLEU나 ROUGE와 같은 n-gram(연속된 n개의 단어 뭉치) 기반 지표들은 계산이 간단하다는 장점에도 불구하고, 인간의 직관적인 품질 판단과 상관관계가 낮다는 비판을 지속적으로 받아왔다.6 이러한 지표들은 단순히 단어의 표면적 일치 여부만을 확인하기 때문에, 의미는 통하지만 다른 단어들로 구성된 캡션의 가치를 제대로 평가하지 못한다.
의미론적 평가의 어려움: 좋은 캡션은 이미지의 내용을 의미론적으로 정확하게 전달해야 한다. 하지만 n-gram 기반 지표들은 문법적으로 완벽하더라도 이미지 내용과 전혀 관련 없는 캡션, 혹은 두 개의 전혀 다른 이미지를 설명하지만 우연히 동일한 구절을 포함하는 캡션들을 제대로 구별하지 못하는 맹점을 가진다.13
MLLM 시대의 새로운 도전: 최근 멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLM)의 등장으로, 생성되는 캡션은 과거의 짧고 간결한 문장을 넘어 훨씬 더 길고, 상세하며, 서사적인 형태로 발전하고 있다.6 이러한 풍부한 표현력을 가진 캡션을 기존의 단어 일치 중심의 지표로 평가하는 것은 더욱 부적절해졌으며, 평가 패러다임의 근본적인 전환을 요구하고 있다.15

1.4 보고서의 구조와 목표

본 안내서는 이러한 배경 하에, 영상 설명 모델의 성능을 평가하는 데 사용되는 다양한 지표들을 체계적으로 정리하고 심층적으로 분석하는 것을 목표로 한다. 1장에서는 평가의 중요성과 난제를 다루었으며, 이어지는 2장에서는 BLEU, METEOR, CIDEr, SPICE 등 전통적인 참조 기반 평가 지표들의 작동 원리와 수학적 공식을 상세히 파헤친다. 3장에서는 CLIPScore와 같이 사전학습된 거대 모델을 활용하는 최신 평가 패러다임과 참조 캡션이 필요 없는 새로운 접근법을 소개한다. 4장에서는 모든 자동 평가 지표의 기준점이 되는 인간 평가의 방법론과 그 역할을 고찰한다. 마지막으로 5장에서는 모든 지표를 종합적으로 비교 분석하고, 연구 및 개발 목적에 맞는 최적의 평가 전략을 수립하기 위한 실용적인 권장 사항을 제시하며 마무리한다.

2. 전통적인 참조 기반 평가 지표

전통적인 평가 방식은 대부분 모델이 생성한 ’후보 캡션(candidate caption)’을 사람이 미리 작성해 둔 하나 이상의 ‘참조 캡션(reference caption)’ 집합과 비교하여 유사도를 측정하는 데 기반을 둔다. 이 장에서는 가장 널리 사용되어 온 전통적인 참조 기반 지표들을 원리, 계산 과정, 수학적 공식, 그리고 장단점 순으로 심층 분석한다. 이 지표들은 단순히 단어의 표면적 일치를 보는 수준에서 시작하여, 점차 외부 지식을 활용하거나 통계적 중요도를 고려하고, 궁극적으로는 문장의 의미 구조를 분석하는 방향으로 발전해왔다. 이러한 발전 과정을 ‘추상화의 사다리(Abstraction Ladder)’ 관점에서 이해하면 각 지표의 특징과 한계를 명확히 파악할 수 있다.

2.1 BLEU: 수정된 N-gram 정밀도와 길이 페널티

BLEU(Bilingual Evaluation Understudy)는 본래 기계 번역의 품질을 평가하기 위해 고안된 지표로, 영상 설명 분야에 초기에 가장 널리 도입된 지표 중 하나이다.16 그 핵심 철학은 “좋은 기계 번역은 전문 인간 번역가의 번역과 유사하다“는 가정에 있으며, 이를 n-gram의 **정밀도(Precision)**를 통해 측정한다.7 즉, 후보 캡션에 등장한 단어 뭉치(n-gram)가 얼마나 많이 참조 캡션에도 등장하는지를 평가의 기준으로 삼는다.

2.1.1 계산 과정

BLEU 점수는 세 가지 핵심 요소의 조합으로 계산된다.

수정된 N-gram 정밀도 (Modified n-gram Precision): 단순 정밀도는 후보 캡션에 특정 단어가 과도하게 반복될 경우 점수가 왜곡될 수 있는 문제를 안고 있다. 예를 들어, 참조 캡션이 “the cat is on the mat“일 때, 후보 캡션이 “the the the the the“라면 ’the’의 정밀도는 100%가 되어 부당하게 높은 점수를 받게 된다. 이를 방지하기 위해 BLEU는 ‘수정된’ 정밀도를 사용한다. 후보 캡션에 등장하는 각각의 n-gram에 대해, 그 등장 횟수를 해당 n-gram이 단일 참조 캡션에서 나타난 최대 횟수로 제한(clip)한다. 그 후, 제한된 횟수들의 총합을 후보 캡션의 전체 n-gram 수로 나누어 정밀도를 계산한다.16
길이 페널티 (Brevity Penalty, BP): 수정된 정밀도만 사용할 경우, 매우 짧은 캡션이 유리해지는 문제가 발생한다. 예를 들어, 후보 캡션이 단지 “the cat“이라면, 두 단어 모두 참조 캡션에 존재하므로 높은 정밀도를 얻게 된다. 이를 보정하기 위해 BLEU는 후보 캡션의 길이( $c$ )가 참조 캡션의 길이( $r$ )보다 짧을 경우 페널티를 부과한다. 후보 캡션의 길이가 참조 캡션 집합 중 가장 비슷한 길이의 참조 캡션보다 짧을수록 페널티는 지수적으로 증가하여 점수를 깎는다.16
최종 점수: 최종 BLEU 점수는 일반적으로 1-gram부터 4-gram까지(BLEU-4)의 수정된 정밀도 점수들을 가중 기하 평균(weighted geometric mean)한 후, 여기에 길이 페널티를 곱하여 산출한다. 산술 평균 대신 기하 평균을 사용하는 이유는 특정 n-gram(예: 4-gram)의 정밀도가 0일 경우 전체 점수가 0에 가깝게 되어, 모든 길이의 구문이 고르게 일치하는 것을 장려하기 위함이다.16

2.1.2 수학적 공식

수정된 n-gram 정밀도 ( $p_n$ ):
$p_n = \frac{\sum_{c \in \{\text{Candidates}\}} \sum_{\text{ngram} \in c} \text{Count}_{\text{clip}}(\text{ngram})}{\sum_{c' \in \{\text{Candidates}\}} \sum_{\text{ngram}' \in c'} \text{Count}(\text{ngram}')}$
여기서 $\text{Count}_{\text{clip}}(\text{ngram})$ 은 후보 캡션 내 n-gram의 등장 횟수를 참조 캡션들에서의 최대 등장 횟수로 제한한 값이다.
길이 페널티 (BP):

$\text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{(1-r/c)} & \text{if } c \le r \end{cases}$
여기서 $c$ 는 후보 캡션의 전체 길이, $r$ 은 후보 캡션 길이와 가장 가까운 참조 캡션의 길이이다.
최종 BLEU 점수:

$\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$
여기서 $N$ 은 고려할 n-gram의 최대 길이(보통 4)이며, $w_n$ 은 각 n-gram 정밀도에 대한 가중치(보통 $1/N$ 로 균등하게 설정)이다.

2.1.3 장점 및 단점

BLEU의 가장 큰 장점은 계산이 매우 빠르고 간단하며, 특정 언어에 종속되지 않아 널리 사용될 수 있다는 점이다.17 그러나 그 단순함이 곧 한계로 이어진다. BLEU는 단어의 의미나 문법적 구조를 전혀 고려하지 않는다. ’고양이’와 ’야옹이’처럼 의미가 같은 동의어를 사용하거나, “A가 B를 때렸다“와 “B가 A에게 맞았다“처럼 문장 구조는 다르지만 의미는 동일한 경우를 전혀 반영하지 못한다.13 이러한 표면적 일치에만 집중하는 특성 때문에, BLEU 점수는 인간의 종합적인 품질 판단과의 상관관계가 낮다는 비판을 꾸준히 받아왔다.9

2.2 METEOR: 정밀도, 재현율, 그리고 조각화 페널티의 조화

METEOR(Metric for Evaluation of Translation with Explicit ORdering)는 BLEU가 가진 한계를 극복하고자 제안된 지표이다.19 BLEU가 정밀도에만 치우쳐 있다는 점과 의미론적 유연성이 부족하다는 점을 개선하는 데 초점을 맞춘다. 이를 위해 METEOR는 정밀도와 **재현율(Recall)**을 모두 고려하며, 어간 추출(stemming) 및 동의어 사전을 활용하여 단어 수준의 의미적 유사성을 포착한다.

BLEU와 ROUGE(다음 절에서 설명)가 각각 정밀도와 재현율이라는 평가의 양극단을 대표한다면, METEOR는 이 둘의 균형을 맞추려는 최초의 시도 중 하나로 볼 수 있다. 이는 평가 지표가 ’정확성’과 ’충분성’이라는 두 가지 중요한 차원을 어떻게 조화시킬 수 있는지에 대한 고민을 보여준다.

2.2.1 계산 과정

METEOR 점수 계산은 다음과 같은 단계로 이루어진다.

단어 정렬 (Alignment): 후보 캡션과 참조 캡션 사이에서 일치하는 단어들의 최적 정렬을 찾는다. 이 과정은 여러 단계에 걸쳐 진행된다. 첫째, 단어의 표면 형태가 정확히 일치하는 단어들을 먼저 매핑한다. 둘째, 남은 단어들에 대해 Porter 어간 추출기를 적용하여 어간이 일치하는 단어들을 매핑한다. 셋째, 마지막으로 WordNet과 같은 동의어 사전을 참조하여 의미가 같은 단어들을 매핑한다. 여러 가능한 정렬 중에서는 교차(crossing)가 가장 적은, 즉 단어의 순서가 가장 잘 보존된 정렬을 최종적으로 선택한다.19
정밀도(P) 및 재현율(R) 계산: 위에서 찾은 최적의 단어 정렬을 기반으로 유니그램 정밀도와 재현율을 계산한다. 정밀도는 후보 캡션의 전체 단어 중 참조 캡션과 정렬된 단어의 비율이고, 재현율은 참조 캡션의 전체 단어 중 후보 캡션과 정렬된 단어의 비율이다.19
조화 평균 (F-mean): 정밀도와 재현율을 결합하기 위해 조화 평균을 사용한다. 이때, 재현율이 정밀도보다 더 중요하다고 간주하여 재현율에 더 높은 가중치( $\alpha$ )를 부여한다. 이는 빠뜨리는 정보가 없는 것이 불필요한 정보를 포함하는 것보다 더 나쁘다는 철학을 반영한다.20
조각화 페널티 (Fragmentation Penalty): 정렬된 단어들이 얼마나 연속적으로 나타나는지를 평가한다. 정렬된 단어들이 후보 캡션과 참조 캡션 양쪽에서 인접해 있을수록 ’덩어리(chunk)’의 수가 적어진다. 덩어리가 많을수록(즉, 일치하는 단어들이 멀리 흩어져 있을수록) 문장의 유창성이 떨어진다고 보고 페널티를 부과한다. 이 페널티는 덩어리의 수에 비례하여 증가한다.19

2.2.2 수학적 공식

정밀도( $P$ ) 및 재현율( $R$ ):
$P = \frac{m}{w_c}, \quad R = \frac{m}{w_r}$
여기서 $m$ 은 정렬된 유니그램의 수, $w_c$ 는 후보 캡션의 유니그램 수, $w_r$ 은 참조 캡션의 유니그램 수이다.
가중 조화 평균 ( $F_{mean}$ ):
$F_{mean} = \frac{(10 \cdot P \cdot R)}{(R + 9 \cdot P)}$
(일반적으로 재현율에 9배 더 높은 가중치를 부여하는 설정이 사용된다 20)
조각화 페널티 ( $Pen$ ):
$\text{Pen} = \gamma \left(\frac{\text{chunks}}{\text{matches}}\right)^\beta$
여기서 chunks는 덩어리의 수, matches는 정렬된 단어의 수이며, $\gamma$ 와 $\beta$ 는 페널티의 크기와 곡률을 조절하는 하이퍼파라미터이다.21
최종 METEOR 점수:

$\text{METEOR} = F_{mean} \cdot (1 - \text{Pen})$

2.2.3 장점 및 단점

METEOR는 동의어 매칭과 재현율 고려를 통해 BLEU보다 의미론적으로 유연하며, 인간의 평가와의 상관관계도 더 높게 나타난다.13 하지만 여전히 WordNet과 같은 외부 언어 자원에 의존적이며, 단어 수준의 의미 매칭에 그치기 때문에 복잡한 문장 구조나 문맥 전체의 의미를 파악하는 데는 한계가 있다.22

2.3 ROUGE: 재현율 중심 접근법과 최장 공통 부분 수열

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 주로 자동 텍스트 요약 평가를 위해 개발된 지표군으로, 이름에서 알 수 있듯이 **재현율(Recall)**에 중점을 둔다.24 이는 BLEU의 정밀도 중심 접근법과 명확한 대조를 이룬다. 영상 설명 평가에서 ROUGE는 “참조 캡션이 담고 있는 중요한 정보들이 후보 캡션에 얼마나 잘 포함되었는가?“라는 질문에 답하고자 한다.26

2.3.1 주요 변형 및 계산 과정

ROUGE는 여러 변형이 존재하지만, 영상 설명에서는 ROUGE-L이 가장 널리 사용된다.

ROUGE-N: 참조 캡션에 있는 n-gram 중 얼마나 많은 비율이 후보 캡션에도 나타나는지를 계산한다. 이는 내용의 포함 여부를 간단하게 측정하는 방식이다.24
ROUGE-L: ROUGE-L은 단어의 순서를 고려하는 **최장 공통 부분 수열(Longest Common Subsequence, LCS)**을 기반으로 한다. LCS는 두 문장에서 순서를 유지하며 공통으로 나타나는 가장 긴 단어 시퀀스를 의미한다. 단어들이 반드시 연속적으로 나타날 필요는 없기 때문에, ROUGE-N보다 더 유연하게 문장 수준의 구조적 유사성을 포착할 수 있다.25 ROUGE-L 점수는 LCS 길이를 기반으로 계산된 정밀도와 재현율의 F-점수(F-score)로 최종 산출된다.

2.3.2 수학적 공식 (ROUGE-L)

후보 캡션을 $C$ , 참조 캡션을 $R$ , 각각의 길이를 $n$ 과 $m$ 이라고 할 때,

LCS 기반 재현율 ( $R_{lcs}$ ) 및 정밀도 ( $P_{lcs}$ ):
$R_{lcs} = \frac{\text{LCS}(C, R)}{m}, \quad P_{lcs} = \frac{\text{LCS}(C, R)}{n}$
여기서 $\text{LCS}(C, R)$ 은 $C$ 와 $R$ 의 최장 공통 부분 수열의 길이를 의미한다.28
F-점수 ( $F_{lcs}$ ):
$F_{lcs} = \frac{(1 + \beta^2) R_{lcs} P_{lcs}}{R_{lcs} + \beta^2 P_{lcs}}$
ROUGE는 재현율을 중시하므로, 보통 $\beta$ 를 1보다 큰 값으로 설정하거나, $\beta$ 를 무한대로 보내 사실상 $R_{lcs}$ 만을 점수로 사용하기도 한다.29

2.3.3 장점 및 단점

ROUGE의 강점은 참조 캡션의 핵심 내용이 후보 캡션에 잘 반영되었는지를 평가하는 데 있다.26 특히 ROUGE-L은 고정된 n-gram 대신 LCS를 사용함으로써 어순을 유지하면서도 유연한 비교가 가능하다는 장점이 있다.27 그러나 ROUGE 역시 다른 n-gram 기반 지표들과 마찬가지로, 단어의 표면적 형태에만 의존하여 동의어나 다양한 표현 방식에 의한 의미적 등가성을 포착하지 못하는 근본적인 한계를 지닌다.30

2.4 CIDEr: 합의 기반 평가와 TF-IDF 가중치

CIDEr(Consensus-based Image Description Evaluation)는 앞선 지표들과 달리, 처음부터 영상 설명 평가를 위해 특별히 설계되었다.8 이 지표의 핵심 철학은 ’인간의 합의(consensus)’를 정량적으로 측정하는 것이다. 즉, 좋은 캡션이란 여러 사람이 공통적으로 동의하는 중요한 내용을 담고 있는 캡션이라는 가정에서 출발한다.33

CIDEr는 정보 검색 분야에서 널리 사용되는 TF-IDF(Term Frequency-Inverse Document Frequency) 개념을 n-gram에 적용하여 이를 구현한다.

2.4.1 계산 과정

N-gram 추출 및 TF-IDF 가중치 부여: 후보 캡션과 모든 참조 캡션에서 n-gram(보통 1~4-gram)을 추출한다. 그 후 각 n-gram에 대해 TF-IDF 가중치를 계산한다.

TF (Term Frequency): 특정 n-gram이 해당 이미지의 참조 캡션 집합 내에서 얼마나 자주 등장하는지를 나타낸다. 자주 등장할수록 그 n-gram은 해당 이미지를 설명하는 데 중요하다고 간주된다.
IDF (Inverse Document Frequency): 특정 n-gram이 전체 이미지 데이터셋에서 얼마나 희귀하게 나타나는지를 측정한다. ‘a’, ’the’와 같이 모든 이미지 설명에 흔하게 등장하는 n-gram은 정보 가치가 낮으므로 낮은 가중치를, 특정 장면에만 나타나는 희귀한 n-gram은 정보 가치가 높으므로 높은 가중치를 부여받는다.7

코사인 유사도 계산: 각 캡션(후보 및 참조)을 TF-IDF 가중치가 적용된 n-gram 벡터로 표현한다. 그 다음, 후보 캡션 벡터와 각 참조 캡션 벡터 간의 코사인 유사도를 계산하고, 이 값들을 평균내어 최종 점수를 얻는다. 코사인 유사도를 사용하는 것은 n-gram의 단순 출현 횟수뿐만 아니라 그 분포의 유사성까지 고려하여 정밀도와 재현율을 균형 있게 평가하는 효과를 가진다.32

2.4.2 수학적 공식

길이 $n$ 의 n-gram에 대한 CIDEr $_n$ 점수:

이미지 $i$ 에 대한 후보 캡션 $c_i$ 와 참조 캡션 집합 $S_i = \{s_{i1},..., s_{im}\}$ 이 주어졌을 때,

$\text{CIDEr}_n(c_i, S_i) = \frac{1}{m} \sum_{j=1}^{m} \frac{\mathbf{g}^n(c_i) \cdot \mathbf{g}^n(s_{ij})}{\|\mathbf{g}^n(c_i)\| \|\mathbf{g}^n(s_{ij})\|}$
여기서 $\mathbf{g}^n(c_i)$ 와 $\mathbf{g}^n(s_{ij})$ 는 각각 후보 캡션과 참조 캡션의 길이 $n$ 인 n-gram들에 대한 TF-IDF 가중치 벡터이다.33

최종 CIDEr 점수:
$\text{CIDEr}(c_i, S_i) = \sum_{n=1}^{N} w_n \text{CIDEr}_n(c_i, S_i)$
여기서 $N$ 은 최대 n-gram 길이(보통 4)이며, $w_n$ 은 각 n-gram 길이에 대한 가중치(보통 $1/N$ )이다.33

2.4.3 장점 및 단점

CIDEr는 인간의 합의를 통계적으로 모델링하여 정보가 풍부하고 중요한 표현에 높은 점수를 부여하므로, 다른 n-gram 기반 지표들보다 인간의 판단과 높은 상관관계를 보이는 것으로 알려져 있다.9 하지만 데이터셋 전체의 통계 정보(IDF)에 의존하기 때문에, 소규모 데이터셋에서는 성능이 불안정할 수 있다. 또한, 순수하게 텍스트 정보만을 사용하므로 때때로 이미지의 핵심 내용과 무관한, 단순히 통계적으로 희귀한 표현에 과도한 가중치를 부여할 수 있다는 비판도 존재한다.23

2.5 SPICE: 장면 그래프를 이용한 의미론적 명제 평가

SPICE(Semantic Propositional Image Caption Evaluation)는 단어나 n-gram의 표면적 일치를 넘어, 캡션이 담고 있는 의미론적 내용을 직접적으로 평가하려는 시도에서 탄생한 획기적인 지표이다.13 이는 ’추상화의 사다리’에서 가장 높은 단계에 해당하며, 문장의 표면 형태를 완전히 벗어나 그 안에 담긴 논리적 명제(proposition)를 비교한다.

2.5.1 계산 과정

SPICE는 캡션을 **장면 그래프(Scene Graph)**라는 구조화된 형태로 변환하여 평가를 수행한다. 장면 그래프는 이미지 내의 객체(Objects), 객체의 속성(Attributes), 그리고 객체들 간의 **관계(Relations)**를 노드와 엣지로 표현한 그래프이다.37

의미론적 파싱 (Semantic Parsing): 후보 캡션과 모든 참조 캡션을 최신 자연어 처리 기술인 의존성 파서(dependency parser)와 장면 그래프 파서를 사용하여 각각 장면 그래프로 변환한다.13 예를 들어, “A young girl is riding a brown horse“라는 캡션은 (girl), (horse), (girl, young), (horse, brown), (girl, riding, horse)와 같은 의미 단위로 분해된다.
튜플(Tuple) 추출: 각 장면 그래프로부터 의미론적 명제를 나타내는 논리적 튜플들을 추출한다. 이 튜플들은 보통 (객체 클래스), (객체 클래스, 속성), (주어 클래스, 관계, 목적어 클래스)의 세 가지 형태로 구성된다.13
튜플 매칭 및 F-점수 계산: 후보 캡션에서 추출된 튜플 집합과, 모든 참조 캡션에서 추출된 튜플들의 합집합을 비교한다. 이 두 집합 간의 일치도를 기반으로 정밀도(Precision)와 재현율(Recall)을 계산한다. 정밀도는 후보 튜플 중 얼마나 많은 것이 참조 튜플 집합에도 있는지를, 재현율은 전체 참조 튜플 중 얼마나 많은 것이 후보 튜플에도 있는지를 측정한다. 최종 SPICE 점수는 이 둘의 조화 평균인 F1-점수로 계산된다.13

2.5.2 수학적 공식

후보 캡션 $c$ 에서 추출한 튜플 집합을 $T(c)$ , 참조 캡션 집합 $S$ 에서 추출한 튜플의 합집합을 $T(S)$ 라 할 때,

정밀도 ( $P(c, S)$ ) 및 재현율 ( $R(c, S)$ ):

$P(c, S) = \frac{\vert T(c) \cap T(S) \vert}{\vert T(c) \vert}$

$R(c, S) = \frac{\vert T(c) \cap T(S) \vert}{\vert T(S) \vert}$

여기서 ∣⋅∣ 는 집합의 크기를 나타낸다.13

최종 SPICE 점수 (F1-score):
$\text{SPICE}(c, S) = \frac{2 \cdot P(c, S) \cdot R(c, S)}{P(c, S) + R(c, S)}$

2.5.3 장점 및 단점

SPICE는 캡션의 핵심 의미를 직접 비교하기 때문에, 기존의 어떤 지표보다도 인간의 판단과 높은 상관관계를 보인다.13 이는 영상 설명 평가 분야의 큰 진전으로 평가받는다. 그러나 SPICE의 치명적인 약점은 문장의 유창성이나 문법적 정확성을 전혀 고려하지 않는다는 점이다.12 예를 들어, “girl young horse brown riding“과 같이 단어 순서가 완전히 틀린 문장도 “A young girl is riding a brown horse“와 동일한 튜플을 생성하여 만점을 받을 수 있다. 이 때문에 SPICE 점수만을 최적화 목표로 사용하면 문법적으로 매우 어색한 문장이 생성될 위험이 있다.9 또한, 성능이 전적으로 장면 그래프 파서의 정확도에 의존한다는 점도 한계로 지적된다.35

표 2: 평가 지표별 핵심 수학 공식

지표 (Metric)	공식 (Formula)
BLEU	BP⋅exp(∑n=1Nwnlogpn)
Brevity Penalty (BP)	{1e(1−r/c)if c>rif c≤r
METEOR	Fmean⋅(1−Pen), where Fmean=αP+(1−α)RP⋅R
ROUGE-L (F-score)	Rlcs+β2Plcs(1+β2)RlcsPlcs
CIDEr	$\sum_{n=1}^{N} w_n \left( \frac{1}{m} \sum_{j} \frac{\mathbf{g}^n(c_i) \cdot \mathbf{g}^n(s_{ij})}{\
SPICE (F1-score)	P(c,S)+R(c,S)2⋅P(c,S)⋅R(c,S) where P,R are based on tuple matching

3. 최신 평가 패러다임: 학습 기반 및 참조 미사용 지표

전통적인 평가 지표들은 참조 캡션이라는 ’정답’에 의존하며, 주로 텍스트 간의 표면적 또는 구조적 유사성을 측정하는 데 머물렀다. 이러한 방식은 앞서 논의된 바와 같이 의미론적 뉘앙스를 포착하는 데 명백한 한계를 가진다. 그러나 최근 대규모 데이터셋으로 사전학습된 거대 모델, 특히 멀티모달 모델의 등장은 평가의 패러다임을 근본적으로 바꾸고 있다.6

이러한 변화의 핵심은 평가의 기준을 ’참조 캡션과의 비교(Comparison)’에서 ’이미지와의 호환성(Compatibility)’으로 전환시킨 것이다. 즉, 생성된 캡션이 정해진 정답 문장과 얼마나 비슷한지를 따지는 대신, 해당 이미지의 내용을 얼마나 잘 설명하는지를 직접 평가하는 방향으로 나아가고 있다. 이 새로운 패러다임은 참조 캡션을 전혀 사용하지 않는 ‘참조 미사용(reference-free)’ 평가를 가능하게 했으며, 인간의 평가 방식을 직접 모사하는 ‘학습 기반(learnable)’ 지표의 발전을 이끌었다.42

3.1 CLIPScore: 대조적 언어-이미지 사전학습(CLIP) 모델의 활용

CLIPScore는 이러한 새로운 패러다임을 대표하는 가장 상징적인 지표이다.43 이 지표는 OpenAI가 개발한 CLIP(Contrastive Language-Image Pre-training) 모델을 기반으로 한다. CLIP은 웹에서 수집한 4억 개의 이미지-텍스트 쌍을 대조 학습(contrastive learning) 방식으로 학습하여, 이미지와 텍스트를 동일한 다차원 임베딩 공간(embedding space)에 매핑하는 방법을 학습한 모델이다.44 이 공유된 공간에서는 의미적으로 유사한 이미지와 텍스트가 서로 가깝게 위치하게 된다.

3.1.1 핵심 원리 및 계산 과정

CLIPScore의 원리는 매우 직관적이다. 좋은 캡션은 해당 이미지와 의미적으로 매우 유사해야 하므로, CLIP 임베딩 공간에서 이미지 벡터와 캡션 벡터가 서로 가까이 있을 것이라는 가정에서 출발한다. 계산 과정은 다음과 같다.43

임베딩 추출: 평가하려는 이미지( $I$ )와 모델이 생성한 후보 캡션( $C$ )이 주어지면, 각각을 CLIP의 이미지 인코더와 텍스트 인코더에 통과시켜 고차원 특징 벡터 $\mathbf{I}_e$ 와 $\mathbf{C}_e$ 를 추출한다.
코사인 유사도 계산: 두 임베딩 벡터 $\mathbf{I}_e$ 와 $\mathbf{C}_e$ 간의 코사인 유사도를 계산한다. 이 값이 바로 CLIPScore가 된다. 점수는 보통 0에서 100 사이의 값으로 스케일링된다.

3.1.2 수학적 공식

$\text{CLIPScore}(I, C) = w \cdot \max( \cos(\mathbf{I}_e, \mathbf{C}_e), 0)$

여기서 $w$ 는 스케일링 상수(보통 100)이며, $\cos(\cdot, \cdot)$ 는 두 벡터 간의 코사인 유사도를 나타낸다.43

3.1.3 변형: RefCLIPScore

CLIPScore는 참조 캡션을 사용하지 않는다는 강력한 장점이 있지만, 때로는 인간이 작성한 참조 캡션이 제공하는 풍부한 언어적 정보를 활용하는 것이 유리할 수 있다. RefCLIPScore는 이러한 점을 고려하여, 참조 미사용 방식과 참조 기반 방식을 결합한 지표이다. 후보 캡션과 이미지 간의 CLIPScore와, 후보 캡션과 참조 캡션들 간의 평균적인 CLIP 기반 텍스트 유사도 점수의 조화 평균(harmonic mean)으로 계산된다. 이를 통해 이미지와의 관련성(CLIPScore)과 인간의 표현 방식과의 유사성(참조 기반 점수)을 모두 고려할 수 있다.43

3.1.4 장점 및 단점

CLIPScore의 가장 큰 혁신은 참조 캡션 없이도 평가가 가능하다는 점이다. 이는 데이터 구축 비용을 획기적으로 줄여줄 뿐만 아니라, 인간이 캡션을 평가하는 방식, 즉 이미지와 텍스트 간의 직접적인 관련성을 보는 방식과 더 유사하다.43 여러 연구에서 CLIPScore는 기존의 참조 기반 지표들보다 인간의 판단과 더 높은 상관관계를 보이는 것으로 나타났다.45

하지만 CLIPScore에도 한계는 존재한다. CLIP 모델은 이미지와 텍스트의 전역적인(global) 의미 정합성을 주로 학습했기 때문에, 캡션 내의 미세한 디테일 오류나 객체의 수, 부정(negation) 표현 등을 정확하게 포착하지 못하는 경향이 있다.46 또한, CLIP 모델 자체가 웹 데이터로 학습되었기 때문에 데이터에 내재된 편향을 그대로 가질 수 있다는 문제점도 있다.

3.2 대규모 언어 모델(LLM) 기반 평가: CLAIR 사례 연구

최신 평가 패러다임의 또 다른 축은 대규모 언어 모델(Large Language Models, LLM) 자체를 평가자로 활용하는 것이다. LLM이 가진 방대한 언어적 지식과 추론 능력을 이용해, 마치 인간 평가자처럼 캡션의 품질을 직접 판단하게 하는 접근법이다. CLAIR(Criterion using LAnguage models for Image caption Rating)는 이러한 LLM 기반 평가의 가능성을 보여준 대표적인 연구 사례이다.47

이 접근법의 등장은 평가라는 과업 자체가 충분히 크고 잘 훈련된 언어 모델의 ’창발적 능력(emergent capability)’일 수 있음을 시사한다. 즉, 복잡한 평가 알고리즘을 수작업으로 설계하는 대신, 이미 인간의 언어적 판단 방식을 내재화한 범용 지능을 활용하는 방향으로 평가의 미래가 나아갈 수 있음을 보여준다.

3.2.1 핵심 원리 및 계산 과정

CLAIR의 핵심 아이디어는 영상 설명 평가 문제를 LLM이 해결할 수 있는 텍스트 완성(text completion) 문제로 재구성하는 것이다.49

프롬프트 구성: LLM에게 명확한 지시사항을 담은 프롬프트를 제공한다. CLAIR에서 사용된 프롬프트는 LLM에게 “후보 캡션 집합이 참조 캡션 집합과 동일한 이미지를 묘사할 가능성이 얼마나 되는가?“를 0에서 100점 사이의 점수로 평가하고, 그 이유를 함께 설명하도록 요청한다.49
LLM 추론 및 점수 추출: 이 프롬프트를 LLM에 입력으로 제공하면, LLM은 지시에 따라 점수와 평가 이유가 포함된 JSON 형식의 텍스트를 생성한다. 이 출력물에서 점수 부분을 파싱하여 최종 평가 점수로 사용한다.49

3.2.2 장점 및 단점

LLM 기반 평가의 가장 큰 장점은 인간의 판단과 매우 높은 상관관계를 보인다는 점과, 평가 점수와 함께 그 근거를 자연어로 제공하여 **설명 가능한 평가(explainable evaluation)**가 가능하다는 점이다.47 이는 개발자가 모델의 약점을 구체적으로 파악하고 개선하는 데 큰 도움을 준다.

그러나 단점 또한 명확하다. 첫째, GPT-4와 같은 강력한 LLM을 사용하기 위해서는 API 호출 비용이 발생한다. 둘째, LLM의 응답은 프롬프트의 미세한 변화에도 민감하게 반응할 수 있어, 프롬프트 설계가 매우 중요하다. 셋째, LLM 자체가 가진 편향이나 사실과 다른 내용을 생성하는 환각(hallucination) 문제로부터 자유롭지 않으며, 평가 결과의 일관성과 재현성을 보장하기 어렵다는 도전 과제가 남아있다.48

4. 인간 평가: 최종 표준으로서의 역할과 한계

모든 자동 평가 지표의 개발과 검증은 궁극적으로 하나의 기준, 즉 ’인간의 판단’을 향한다. 인간 평가는 생성된 캡션의 품질을 평가하는 가장 신뢰할 수 있는 방법이자, 새로운 자동 평가 지표가 인간의 직관과 얼마나 잘 일치하는지를 측정하는 **최종 표준(gold standard)**으로서의 역할을 수행한다.7 자동화된 지표가 놓칠 수 있는 언어의 미묘한 뉘앙스, 문맥적 적절성, 창의성 등을 종합적으로 판단할 수 있는 유일한 방법이기 때문이다.

4.1 평가 기준 및 루브릭(Rubric)

’좋은 캡션’이란 무엇인가? 이 질문에 답하기 위해 인간 평가는 단일 점수가 아닌 다차원적인 평가 기준, 즉 루브릭(rubric)을 사용한다. 이는 ’품질’이라는 것이 단일한 개념이 아니라 여러 속성의 벡터(vector)임을 보여준다. 각각의 자동 평가 지표는 이 고차원적인 품질 공간을 특정 축으로 투영한 단일 값에 불과하며, 이것이 바로 단일 지표가 불완전할 수밖에 없는 근본적인 이유이다. 신뢰성 있는 인간 평가를 위해 일반적으로 사용되는 핵심 기준은 다음과 같다.

정확성/충실성 (Accuracy/Fidelity): 캡션이 이미지에 나타난 사실을 왜곡 없이 정확하게 기술하는가? 존재하지 않는 객체를 언급하거나(환각), 객체의 속성(색상, 개수 등)을 잘못 기술하는 등의 오류는 없는가? 이 기준은 캡션의 가장 기본적인 요건인 사실성에 초점을 맞춘다.50
적절성/완결성 (Adequacy/Completeness/Recall): 캡션이 이미지의 핵심적이고 두드러진 정보를 빠짐없이 포함하고 있는가? 주요 객체나 중요한 상황을 누락하지 않고, 이미지의 전체적인 내용을 충분히 전달하는지를 평가한다.50
유창성 (Fluency): 캡션이 문법적으로 올바르며, 어색함 없이 자연스럽고 읽기 쉬운 문장으로 작성되었는가? 이는 순수하게 언어적인 품질을 평가하는 기준이다.50
상세성/구체성 (Descriptiveness/Specificity): 캡션이 “한 남자가 서 있다“와 같이 지나치게 일반적이거나 모호하지 않고, “파란 셔츠를 입은 젊은 남자가 공원 벤치에 앉아 있다“와 같이 구체적이고 풍부한 정보를 제공하는가? 이 기준은 캡션의 정보량을 평가한다.53

4.2 평가 설계 모범 사례

신뢰도 높고 재현 가능한 인간 평가를 수행하기 위해서는 체계적인 설계가 필수적이다. ACL, EMNLP와 같은 최고 수준의 NLP 학회에서는 다음과 같은 모범 사례를 권장한다.54

명확한 가이드라인과 평가자 훈련: 평가자들에게 평가 기준(루브릭)을 명확하게 정의한 가이드라인을 제공하고, 일관된 판단을 내릴 수 있도록 충분한 사전 훈련을 실시해야 한다. 이는 평가자 간의 주관적 편차를 최소화하는 데 결정적이다.51
다양한 평가 방식의 활용: 평가 목적에 따라 적절한 방식을 선택해야 한다.

리커트 척도 (Likert Scale): ‘유창성’, ‘정확성’ 등 각 기준에 대해 1점(매우 나쁨)부터 5점(매우 좋음)까지의 점수를 매기는 방식이다.
쌍별 비교 (Pairwise Comparison): 두 개의 다른 모델이 생성한 캡션을 동시에 보여주고, 어느 쪽이 더 나은지를 선택하게 하는 방식이다. 이는 평가자의 판단 부담을 줄여 더 일관된 결과를 유도할 수 있다.
순위 매기기 (Ranking): 여러 모델이 생성한 캡션들을 품질 순서대로 나열하게 하는 방식이다.

평가자 간 신뢰도(Inter-rater Reliability) 확보: 동일한 캡션에 대해 여러 명의 평가자가 평가를 진행하고, 그 결과가 얼마나 일치하는지를 통계적으로 측정해야 한다. 크리펜도르프 알파(Krippendorff’s alpha)나 플라이스 카파(Fleiss’ kappa)와 같은 지표를 사용하여 평가의 신뢰성을 객관적으로 입증해야 한다.
윤리적 고려사항: 평가자 모집, 데이터 처리, 동의 획득 과정에서 개인정보 보호와 같은 윤리적 규범을 철저히 준수해야 한다.56

4.3 한계

인간 평가는 그 신뢰성에도 불구하고 명백한 한계를 가진다. 가장 큰 문제는 높은 비용과 많은 시간이 소요된다는 점이다. 수천, 수만 개의 캡션을 평가하기 위해 다수의 평가자를 고용하고 훈련시키는 것은 현실적으로 매우 어렵다.35 또한, 아무리 엄격한 가이드라인을 제공하더라도 평가자의

주관성이나 개인적 편향이 개입될 여지가 항상 존재하며, 이는 평가 결과의 완전한 객관성을 저해하는 요인이 된다.12 이러한 한계 때문에 인간 평가는 대규모 시스템 개발 과정의 모든 단계에서 사용되기보다는, 주로 최종 모델의 성능을 검증하거나 새로운 자동 평가 지표의 타당성을 입증하는 데 제한적으로 사용된다.

5. 종합 분석 및 실용적 권장 사항

지금까지 영상 설명 모델의 성능을 평가하기 위한 다양한 지표들을 전통적인 방식부터 최신 패러다임까지 심도 있게 살펴보았다. 각 지표는 고유한 철학과 장단점을 가지고 있으며, 어떤 단일 지표도 완벽하지 않다. 이 장에서는 논의된 지표들을 종합적으로 비교 분석하고, 이를 바탕으로 연구 및 개발 현장에서 적용할 수 있는 실용적인 평가 전략을 제시하고자 한다.

5.1 평가 지표 간 비교 분석

각 평가 지표는 ’객관성/재현성’과 ’의미론적 풍부함/인간 판단과의 상관관계’라는 두 축 사이의 근본적인 트레이드오프(trade-off) 선상에 위치한다. 이 ‘평가 프론티어(Evaluation Frontier)’ 개념을 통해 각 지표의 상대적 위치와 특성을 이해할 수 있다.

BLEU, ROUGE: 이 지표들은 계산이 간단하고 재현성이 높아 프론티어의 ‘객관성’ 축 끝에 위치한다. 하지만 의미론적 내용을 거의 반영하지 못해 ‘인간 판단과의 상관관계’ 축에서는 가장 낮은 점수를 받는다.12
METEOR, CIDEr: 동의어 매칭이나 TF-IDF 가중치를 도입하여 BLEU보다 의미론적 풍부함을 더했다. 이들은 프론티어 상에서 BLEU보다 약간 더 ‘인간 판단과의 상관관계’ 축으로 이동한 위치에 있다. 특히 CIDEr는 영상 설명 태스크에 특화되어 인간의 합의를 잘 반영하므로 높은 상관관계를 보인다.9
SPICE: 의미 구조를 직접 분석함으로써 프론티어를 ‘인간 판단과의 상관관계’ 축으로 크게 밀어 올렸다. 연구에 따르면 SPICE는 전통적인 지표 중 인간의 판단과 가장 높은 상관관계를 보인다.13 하지만 문법을 무시하고 파서에 의존하는 대가로 ’객관성’과 ‘완전성’ 측면에서 약점을 보인다.
CLIPScore, LLM 기반 지표: 이 최신 지표들은 거대 모델의 힘을 빌려 프론티어를 인간 평가에 가장 가까운 지점까지 확장했다. 특히 참조 캡션 없이 이미지와의 직접적인 호환성을 평가하는 CLIPScore와, 평가 과정에 대한 설명까지 제공하는 LLM 기반 지표는 의미론적 풍부함의 정점에 있다.43 그러나 이들은 거대 모델 자체의 불투명성과 편향, 그리고 재현성 문제라는 새로운 차원의 도전을 안고 있다.

아래 표는 주요 평가 지표의 핵심적인 특징을 요약하여 비교한 것이다.

표 1: 주요 평가 지표 비교 요약

지표 (Metric)	핵심 원리 (Core Principle)	참조 필요 여부 (Reference)	강점 (Strengths)	약점 (Weaknesses)	인간 평가 상관관계 (Human Correlation)
BLEU	수정된 n-gram 정밀도	필요	계산 빠름, 언어 독립적	의미/동의어 무시, 문법 구조 취약	낮음 (Low)
METEOR	정밀도/재현율 조화 평균 (동의어/어간 매칭)	필요	BLEU보다 의미론적, 어순 고려	WordNet 등 외부 자원 의존	중간 (Moderate)
ROUGE-L	최장 공통 부분 수열(LCS) 재현율	필요	내용 포함 여부, 문장 구조 평가에 유리	의미/동의어 무시	낮음-중간 (Low-Moderate)
CIDEr	TF-IDF 가중 n-gram 코사인 유사도 (합의)	필요	정보량/중요도 반영, 높은 상관관계	데이터셋 통계 의존, 문법 무시	높음 (High)
SPICE	장면 그래프 튜플 F1-점수	필요	의미론적 명제 직접 평가, 매우 높은 상관관계	문법/유창성 완전 무시, 파서 성능 의존	매우 높음 (Very High)
CLIPScore	이미지-텍스트 임베딩 코사인 유사도	불필요	시각적 근거(visual grounding) 직접 평가	세부사항/부정표현 취약, 전역적 정합성 편향	높음 (High)
CLAIR (LLM)	프롬프트를 통한 LLM의 직접 평가	필요	설명 가능, 인간 판단과 매우 높은 상관관계	비용, 재현성 문제, LLM 자체의 편향	매우 높음 (Very High)

5.2 실용적 평가 전략

이러한 분석을 바탕으로, 영상 설명 모델을 평가할 때 다음과 같은 실용적인 전략을 권장한다.

단일 지표의 함정을 피하라: 어떤 단일 지표도 캡션 품질의 모든 측면을 포괄할 수 없다. 따라서 연구 결과를 보고할 때는 반드시 여러 지표를 함께 제시하여 다각적인 관점에서 모델의 성능을 입증해야 한다. 이는 특정 지표에 과적합(overfitting)되는 것을 방지하고, 모델의 강점과 약점을 더 명확하게 보여준다.
목적에 맞는 지표를 조합하라:

빠른 개발 및 반복: 모델 개발 초기 단계나 하이퍼파라미터 튜닝과 같이 빠른 피드백이 필요할 때는 계산이 빠른 BLEU-4나 METEOR를 주요 모니터링 지표로 활용할 수 있다.
최종 성능 보고: 논문이나 최종 보고서에는 인간 판단과 상관관계가 높다고 알려진 지표들을 조합하여 제시하는 것이 표준이다. 현재 학계에서는 BLEU-4, METEOR, ROUGE-L, CIDEr, SPICE를 함께 보고하는 것이 일반적이다.
의미론적 강건성 검증: 참조 캡션이 부족하거나, 새로운 도메인에 대한 모델의 일반화 성능을 확인하고 싶을 때는 CLIPScore와 같은 참조 미사용 지표를 추가로 활용하는 것이 매우 유용하다.

상호 보완적인 지표 조합을 활용하라: 각 지표의 맹점을 서로 보완하는 조합을 사용하는 것이 효과적이다. 대표적인 예가 SPIDEr로, 의미론적 정확성에 강한 SPICE와 문법적 유창성 및 합의도에 강한 CIDEr를 결합하여 두 지표를 개별적으로 최적화했을 때보다 훨씬 더 우수한 품질의 캡션을 생성하는 것으로 나타났다.9 이처럼 서로 다른 측면을 평가하는 지표들을 결합하는 전략은 보다 균형 잡힌 모델 개발로 이어질 수 있다.

5.3 미래 연구 방향 및 도전 과제

영상 설명 기술이 발전함에 따라 평가의 초점 또한 진화하고 있다. 미래의 평가 연구는 다음과 같은 도전 과제들을 해결하는 방향으로 나아갈 것이다.

환각(Hallucination) 평가: MLLM의 발전과 함께, 모델이 이미지에 존재하지 않는 객체나 사실을 그럴듯하게 생성하는 ‘환각’ 현상이 중요한 문제로 대두되었다. 이러한 환각을 자동으로 탐지하고 정량화하는 신뢰성 있는 지표 개발이 시급하다.6
창의성 및 다양성 평가: 대부분의 현재 모델은 데이터셋에 자주 등장하는 ‘안전하고’ 일반적인 캡션을 생성하는 경향이 있다. 인간처럼 창의적이고, 신선하며, 다양한 스타일의 캡션을 생성하는 능력을 어떻게 평가할 것인지는 아직 해결되지 않은 중요한 문제이다.58
편향 및 공정성 평가: 생성된 캡션이 특정 성별, 인종, 문화에 대한 사회적 편견이나 고정관념을 무의식적으로 강화하거나 재현하지는 않는지 평가하는 방법론에 대한 연구가 필요하다. 이는 기술의 사회적 책무성과 직결되는 문제이다.60
설명 가능하고 세분화된 평가: 단순히 종합 점수 하나를 제시하는 것을 넘어, 캡션의 어떤 단어가 왜 부정확한지, 이미지의 어떤 중요한 영역이 누락되었는지 등 구체적이고 세분화된 피드백을 제공하는 ‘설명 가능한’ 평가 지표의 개발이 더욱 중요해질 것이다.57

결론적으로, 영상 설명 모델의 평가는 정적인 분야가 아니라 기술의 발전과 함께 끊임없이 진화하는 동적인 영역이다. 연구자와 개발자는 각 평가 지표의 철학과 한계를 명확히 이해하고, 목적에 맞는 지표들을 현명하게 조합하여 사용함으로써 기술 발전에 기여해야 할 것이다.

6. 참고 자료

builtin.com, https://builtin.com/articles/image-captioning#:~:text=A%20Guide%20to%20Image%20Captioning,more%20about%20how%20it%20works.
An Overview of Image Caption Generation Methods - PMC - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC7199544/
Image Captioning | ArcGIS API for Python - Esri Developer, https://developers.arcgis.com/python/latest/guide/how-image-captioning-works/
A Review of Image Captioning Techniques: Types, Deep Learning Advancements, and Limitations - Cureus Journals, https://www.cureusjournals.com/articles/1573-a-review-of-image-captioning-techniques-types-deep-learning-advancements-and-limitations.pdf
Image Captioning in Deep Learning | Built In, https://builtin.com/articles/image-captioning
Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives - arXiv, https://arxiv.org/html/2503.14604v1
Evaluation and Fine-Tuning for Image Captioning Models - Labellerr, https://www.labellerr.com/blog/image-captioning-evaluation-and-fine-tuning/
Are metrics measuring what they should? An evaluation of Image Captioning task metrics - arXiv, https://arxiv.org/pdf/2207.01733
Improved Image Captioning via Policy Gradient Optimization of SPIDEr - CVF Open Access, https://openaccess.thecvf.com/content_ICCV_2017/papers/Liu_Improved_Image_Captioning_ICCV_2017_paper.pdf
Improving Image Captioning Evaluation by Considering Inter References Variance - ACL Anthology, https://aclanthology.org/2020.acl-main.93.pdf
Improving Image Captioning Evaluation by Considering Inter References Variance - ACL Anthology, https://aclanthology.org/2020.acl-main.93/
Learning to Evaluate Image Captioning - CVF Open Access, https://openaccess.thecvf.com/content_cvpr_2018/papers/Cui_Learning_to_Evaluate_CVPR_2018_paper.pdf
SPICE: Semantic Propositional Image Caption … - Peter Anderson, https://panderson.me/images/SPICE.pdf
[Literature Review] Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives - Moonlight, https://www.themoonlight.io/en/review/image-captioning-evaluation-in-the-age-of-multimodal-llms-challenges-and-future-perspectives
[2503.14604] Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives - arXiv, https://arxiv.org/abs/2503.14604
BLEU - Wikipedia, https://en.wikipedia.org/wiki/BLEU
ROUGE and BLEU scores for NLP model evaluation | Clément’s blog, https://clementbm.github.io/theory/2021/12/23/rouge-bleu-scores.html
Two minutes NLP — Learn the BLEU metric by examples | by Fabio Chiusano - Medium, https://medium.com/nlplanet/two-minutes-nlp-learn-the-bleu-metric-by-examples-df015ca73a86
METEOR - Wikipedia, https://en.wikipedia.org/wiki/METEOR
METEOR: An Automatic Metric for MT Evaluation with Improved …, https://aclanthology.org/W05-0909.pdf
METEOR - a Hugging Face Space by evaluate-metric, https://huggingface.co/spaces/evaluate-metric/meteor
What are the limitations of using ROUGE or METEOR for RAG evaluation, especially considering there may be multiple correct ways to answer a question with the retrieved info? - Milvus, https://milvus.io/ai-quick-reference/what-are-the-limitations-of-using-rouge-or-meteor-for-rag-evaluation-especially-considering-there-may-be-multiple-correct-ways-to-answer-a-question-with-the-retrieved-info
Re-evaluating Automatic Metrics for Image Captioning - ACL Anthology, https://aclanthology.org/E17-1019.pdf
ROUGE (metric) - Wikipedia, https://en.wikipedia.org/wiki/ROUGE_(metric)
Evaluating AI Text Summarization: Understanding the ROUGE Metric - Galileo AI, https://galileo.ai/blog/rouge-metric
A list of metrics for evaluating LLM-generated content - Microsoft Learn, https://learn.microsoft.com/en-us/ai/playbook/technology-guidance/generative-ai/working-with-llms/evaluation/list-of-eval-metrics
ROUGE: A Package for Automatic Evaluation of Summaries - ACL Anthology, https://aclanthology.org/W04-1013.pdf
ROUGE-L Calculation in the lecture : “Model Evaluation” of Week-2 - DeepLearning.AI, https://community.deeplearning.ai/t/rouge-l-calculation-in-the-lecture-model-evaluation-of-week-2/423507
rougeEvaluationScore - Evaluate translation or summarization with ROUGE similarity score - MATLAB - MathWorks, https://www.mathworks.com/help/textanalytics/ref/rougeevaluationscore.html
ROUGE in AI: Key to Text Summarization - Galileo AI, https://galileo.ai/blog/rouge-ai
Evaluating Model Performance with the ROUGE Metric: A Comprehensive Guide | Traceloop, https://www.traceloop.com/blog/evaluating-model-performance-with-the-rouge-metric-a-comprehensive-guide
CIDEr: Consensus-based image description evaluation | Request PDF - ResearchGate, https://www.researchgate.net/publication/308804607_CIDEr_Consensus-based_image_description_evaluation
CIDEr: Consensus-based Image Description Evaluation, https://arxiv.org/abs/1411.5726
CIDEr: Consensus-Based Image Description Evaluation - The Computer Vision Foundation, https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Vedantam_CIDEr_Consensus-Based_Image_2015_CVPR_paper.pdf
Re-evaluating Automatic Metrics for Image Captioning, https://vision.cs.hacettepe.edu.tr/publication/fulltext/3cbc7c94b931ef4e4ffcb144a1caf638.pdf
SPICE: Semantic Propositional Image Caption Evaluation | Request PDF - ResearchGate, https://www.researchgate.net/publication/308191728_SPICE_Semantic_Propositional_Image_Caption_Evaluation
Scene Graph Parsing via Abstract Meaning Representation in Pre-trained Language Models - OpenReview, https://openreview.net/pdf?id=764nB9UdW16
SPICE: Semantic Propositional Image Caption Evaluation - Peter Anderson, https://panderson.me/spice/
Learning to Evaluate Image Captioning - Cornell Vision Pages, https://vision.cornell.edu/se3/wp-content/uploads/2018/03/1501.pdf
peteanderson80/SPICE: Semantic Propositional Image Caption Evaluation - GitHub, https://github.com/peteanderson80/SPICE
Perception Score: A Learned Metric for Open-ended Text Generation Evaluation - AAAI, https://cdn.aaai.org/ojs/17526/17526-13-21020-1-2-20210518.pdf
[2501.12011] Reference-free Evaluation Metrics for Text Generation: A Survey - arXiv, https://arxiv.org/abs/2501.12011
CLIPScore: A Reference-free Evaluation Metric for Image Captioning - ResearchGate, https://www.researchgate.net/publication/350992287_CLIPScore_A_Reference-free_Evaluation_Metric_for_Image_Captioning
CLIPScore: A Reference-free Evaluation Metric for … - ACL Anthology, https://aclanthology.org/2021.emnlp-main.595.pdf
Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2023/papers/Sarto_Positive-Augmented_Contrastive_Learning_for_Image_and_Video_Captioning_Evaluation_CVPR_2023_paper.pdf
CLIPScore: A Reference-free Evaluation Metric for Image Captioning - Semantic Scholar, https://www.semanticscholar.org/paper/CLIPScore%3A-A-Reference-free-Evaluation-Metric-for-Hessel-Holtzman/38b0567e83386ddc294d6c81b541deacbd8e3c2a
CLAIR: Evaluating Image Captions with Large Language Models - ACL Anthology, https://aclanthology.org/2023.emnlp-main.841/
CLAIR: Evaluating Image Captions with Large Language Models - OpenReview, https://openreview.net/forum?id=99msyVXHEq¬eId=acPJ5VtJw3
CLAIR: Evaluating Image Captions with Large … - ACL Anthology, https://aclanthology.org/2023.emnlp-main.841.pdf
FAIEr: Fidelity and Adequacy Ensured Image Caption Evaluation - CVPR 2021 Open Access Repository - The Computer Vision Foundation, https://openaccess.thecvf.com/content/CVPR2021/html/Wang_FAIEr_Fidelity_and_Adequacy_Ensured_Image_Caption_Evaluation_CVPR_2021_paper.html
Validated Image Caption Rating Dataset, https://proceedings.neurips.cc/paper_files/paper/2023/file/c0b91f9a3587bf35287f41dba5d20233-Paper-Datasets_and_Benchmarks.pdf
Transparent Human Evaluation for Image Captioning - ACL Anthology, https://aclanthology.org/2022.naacl-main.254/
EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations, https://arxiv.org/html/2506.24016
Best practices for the human evaluation of automatically generated text - INLG 2019, https://www.inlg2019.com/assets/papers/98_Paper.pdf
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models - arXiv, https://arxiv.org/html/2405.18638v1
How to do human evaluation: A brief introduction to user studies in NLP, https://www.cambridge.org/core/journals/natural-language-engineering/article/how-to-do-human-evaluation-a-brief-introduction-to-user-studies-in-nlp/85A5D9550233DFC3CF356DD7041E3306
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning | OpenReview, https://openreview.net/forum?id=636M0nNbPs
Assessing Creativity With Divergent Thinking Tasks: Exploring the Reliability and Validity of New Subjective Scoring Methods - ResearchGate, https://www.researchgate.net/publication/232480788_Assessing_Creativity_With_Divergent_Thinking_Tasks_Exploring_the_Reliability_and_Validity_of_New_Subjective_Scoring_Methods
NoveltyBench: Evaluating Creativity and Diversity in Language Models - arXiv, https://arxiv.org/html/2504.05228v1
Understanding and evaluating harms of AI-generated image captions in political images, https://www.frontiersin.org/journals/political-science/articles/10.3389/fpos.2023.1245684/full
FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model - Semantic Scholar, https://www.semanticscholar.org/paper/FLEUR%3A-An-Explainable-Reference-Free-Evaluation-for-Lee-Park/dd4474c810b03a7a7767068e2e50c687f539ccd2